1 Wstępne przetwarzenie danych

Ze zbioru danych wczytanego z pliku all_summary.csv zostały usunięte wiersze z wartościami atrybutu res_name w zbiorze {UNK, UNX, UNL, DUM, N, BLOB, ALA, ARG, ASN, ASP, CYS, GLN, GLU, GLY, HIS, ILE, LEU, LYS, MET, MSE, PHE, PRO, SEC, SER, THR, TRP, TYR, VAL, DA, DG, DT, DC, DU, A, G, T, C, U, HOH, H20, WAT}. Podczas wczytywania danych res_name równe “NA” zostały zastąpione wartościami pustymi, dlatego wartości pustu zostały zastapione odpowiednim łancuchem znakóW

df[is.na(df$res_name),"res_name"] = "NA"

1.1 Przetwarzanie brakujących danych

Analiza wzorców występowania wartości pustych wykazała, że kolumna weight_col jest zawsze pusta. Po usunięci tej kolumny 91 % wierszy jest kompletnych. Proporcja niekompletnych wierszy jest niewielka, więc zostały one usunięte.

df <- df %>% select(-weight_col)
df <- na.omit(df)

Po tych operacjach w zbiorze nie ma już wartościu pustych.

1.2 Najczęstsze klasy

Do dalszego przetwarzania pozostawione zostaną tylko wiersze, dla których res_name (klasa) jest jedną z 50 najczęściej wystepujacyh klas.

2 Statystyki

2.1 Rozmiar zbioru

2.2 Podsumowanie atrybutów

int_num_cols <- as.character((data.frame(name=as.character(colnames(df)), type = sapply(df, class)) %>% filter(type %in% c("numeric","integer")))$name)
summary_df <- summary( df %>% select(int_num_cols) )
transposed_summary_df <- transpose(as.data.frame(unclass(summary_df)))
colnames(transposed_summary_df) <- c("Min", "1st Qu", "Median", "Mean", "3rd Qu", "Max")
transposed_summary_df <- cbind(Name=colnames(summary_df), transposed_summary_df)
DT::datatable(transposed_summary_df, style="bootstrap")

2.3 Rozkład liczby atomów i elektronów

2.4 Zgodność liczby atomów

Zgodność zastała obliczona przy użyciu testu Wilcoxsona.

2.5 Korelacja

Na ptrzeby policzenia korelacji zostaną usunięte kolumny mające nienumeryczne wartości oraz kolumny charakteryzujące się wariancją bliską 0.

3 Rozklad atrybutów part_01

part_01 distributions

part_01 distributions